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基于 案例 推理 和 启发 式 Q 学 习 的 资源 分 配 算法 
徐 ” 琳 ， 赵 知 劲 


(杭州 电子 科技 大 学 通信 工程 学 院 , 杭州 310018) 


摘 要 : 针对 集中 式 认 知 网 络 的 信道 和 功率 分 配 问题 ,提出 了 一 种 基于 案例 推理 和 启发 式 Q 学 习 算 法 。 为 了 提高 Q 学 
习 算 法 的 收 伊 速 度 ， 将 当前 分 配 问题 与 存储 的 历史 案例 进行 相似 度 匹 配 ， 选 取 最 相似 案例 的 Q 值 ， 归 一 化 处 理 后 作为 
启发 式 Q 学 习 算 法 的 初 值 。 为 了 提高 启发 式 Q 学 习 的 算法 性 能 ， 引 入 一 个 基于 信息 强度 的 指导 函数 ， 通 过 强调 动作 的 
重要 性 来 改变 动作 策略 ; 设计 的 奖赏 函数 反映 了 认 知 系统 的 能 量 效率 。 仿 真 结果 表明 ， 该 算法 可 以 明显 提高 认 知 网 络 
信道 和 功率 分 配 的 认 知 系统 能 量 效 率 和 收敛 速度 。 
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Resource allocation algorithm based on case reasoning and heuristically accelerated Q-learning 


一 > Xu Lin, Zhao Zhijin 
- (Telecommunication School, Hangzhou Dianzi University, Hangzhou 310018, China) 


© Abstract: Aiming at the problem of channel and power allocation in centralized cognitive networks, a case-based reasoning and 
improved heuristically accelerated Q-learning algorithm was proposed. In order to improve the convergence speed of the Q 

一 learning algorithm, the current allocation problem was matched with the stored historical case, and the Q value of the most 
similar case Was selected, which was normalized as the initial value of the heuristically accelerated Q learning algorithm. In 


order to improve the performance of the heuristically accelerated Q learning, a guidance function based on information intensity 


was introduced to change the action strategy by emphasizing the importance of the action; energy efficiency was considered in 
the design of the reward function. The simulation results show that the proposed algorithm can significantly improve the system 
energy efficiency and convergence speed, which has carried the channel and power allocation. 

Key words: channel and power allocation; improved heuristically accelerated Q-learning; case reasoning; cognitive radio; 


system energy efficiency; successful transmission probability 


分 层 处 理 ， 各 认 知 用 户 根据 信道 增益 选择 信道 后 ， 采 用 可 变 学 
习 速 率 Q 学 习 《〈Q learning with Variable learning rate, VLRQL) 
无 线 电 频谱 是 无 线 通 信 中 最 宝贵 的 资源 ， 固 定 的 频谱 分 配 。” 进行 功率 分 配 ， 应 用 该 算法 的 系统 容量 略 低 ， 收 敛 速度 有 待 提 
政策 导致 频谱 资源 紧张 , 同时 又 存在 大 量 频谱 处 于 空闲 状态 串 。 高 。 针 对 这 些 问题 ， 本 文 提出 了 一 种 基于 改进 启发 式 Q 学 习 
认 知 无 线 电 技术 的 提出 大 幅度 提高 了 频谱 利用 率 ， 它 允许 认 知 (improved heuristically accelerated Q-learning, IHAQL) 算法 。 
用 户 机 会 式 利 用 空闲 信道 ， 通 过 与 周围 环境 的 交互 ， 对 信道 、 在 启发 函数 加 快 Q 学 习 的 基础 上 ,引入 基于 信息 强度 的 指导 函 
发 射 功率 等 参数 进行 动态 分 配 和 优化 ， 以 满足 更 多 用 户 的 通信 数 ， 根 据 奖 赏 值 更 新 信息 强度 ， 从 而 改变 动作 策略 ， 提 高 收敛 
需求 四。 速率 。 应 用 案例 推理 (case-based reasoning，CBR ) 能 够 明显 提 

强化 学 习 算 法 以 环境 状态 为 输入 ， 奖 惩 信号 为 反馈 ， 通 过 高 认 知 无 线 电 NC-OFDM (non-contiguous OFDM) 的 资源 分 配 
agent 与 环境 不 断交 互 学 习 ， 从 而 输出 最 佳 的 决策 策略 ”。Q 学 的 收敛 速度 1。 因 此 ， 为 了 优化 合作 Q 学 习 算 法 的 Q 值 初 始 
习 是 使 用 最 广泛 的 强化 学 习 算法 ， 已 经 成 功 应 用 于 集中 式 网 络 化 ， 进 一 步 提 高 算法 性 能 ， 本 文 提 出 了 基于 案例 推理 和 改进 启 
架构 的 认 知 无 线 电 资源 分 配 问题 中 。Yao 等 人 "首次 利用 经 发 式 Q 学 习 (case-based reasoning and improved heuristically 
Q 学 习 (Q-learning, QL) 完成 了 集中 式 网 络 架构 下 信道 和 功率 ”accelerated Q-learning, CBR-IHAQL) 的 集中 式 认 知 网 络 的 信道 
的 联合 分 配 ， 但 收敛 速度 较 慢 。 伍 春 等 人 “对 信道 和 功率 进行 和 功率 分 配 算法 。 利 用 案例 推理 ， 选 择 与 当前 问题 最 相似 案例 
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的 Q 值 ,作为 后 续 改进 Q 学 习 的 初始 值 , 使 得 各 Agent 在 学 习 
初 就 接近 最 优 解 。 本 算法 明显 提高 了 收敛 速度 ， 且 能 获得 更 高 
的 认 知 系统 能 量 效率 。 


1 ”案例 推理 和 改进 启发 式 Q 学 习 算法 


1.1 CBR-IHAQL 算法 模型 

当 有 新 案例 到 达 ， 先 与 案例 库 中 的 历史 案例 进行 匹配 ， 选 
取 最 相似 案例 的 Q 值 归 一 化 作为 Q 学 习 的 初始 值 ， 然 后 进行 
改进 启发 式 Q 学 习 。 新 案例 得 到 解决 后 ， 将 新 案例 的 效用 值 与 
案例 库 中 效用 值 最 小 的 案例 进行 比较 ， 从 而 决定 是 否 进行 案例 
更 新 。CBR-IHAQL 算法 模型 如 图 1 所 示 ， 虚 线 框 中 为 案例 推 


理 算法 。 


砚 


新 案例 上- 案例 库 


抱 枫 案例 Q 
值 归 一 化 


图 1 CBR-IHAQL 算法 模型 


1.2 ”案例 推理 
案例 推理 可 以 为 决策 过 程 提供 决策 知识 和 智能 信息 服务 ， 
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用 欧式 距离 作为 案例 的 匹配 函数 。 
假设 新 案例 为 co ， 则 新 案例 与 历史 案例 ce 的 相似 值 为 


f (Cian ct) = 2 52 A) O) 
其 中 ，6, 为 第 n 个 特征 参数 的 权 值 ， xz” 和 区 分 别 为 co 和 
ci 的 第 n 个 特征 的 第 j 个 参数 值 。 
因此 可 得 ， 匹 配 案例 为 


ag max f (Gin; Cx ) (3) 


1.3 传统 启发 式 Q 学 习 

Q 学 习 是 一 种 最 常用 的 在 线 学 习 技术 0， 通过 Agent 的 不 
断 试 错 与 环境 进行 交互 ， 利 用 在 交互 过 程 中 产生 的 奖赏 来 改进 
学 习 策 略 ， 进 而 寻 得 最 佳 策 略 004。Q 学 习 通常 以 状态 -动作 值 函 
数 Q(s,q) 作为 评估 动作 优 务 的 依据 , 状态 s, 下 , 选择 动作 a 时， 
其 Q 值 更 新 如 式 〈4) 所 示 。 


Qssa) -0 (sa) + tymaxQ (st) (4) 


其 中 : 0<w <1 为 学 习 速 率 ; 0<y<1 为 奖赏 折扣 值 , 表示 
下 一 状态 对 当前 状态 下 Q 值 的 影响 程度 ;1 为 执行 选择 的 动作 
所 获得 的 奖赏 值 ，5,,1 为 下 一 状态 ;4,4 为 下 一 状态 中 Q 值 最 大 
的 动作 。 
为 了 提高 Q 学 习 算 法 的 收敛 速度 , 结合 启发 函数 进行 动作 
的 选取 , 以 更 有 效 的 方式 来 指导 agent 对 状态 动作 空间 的 探索 。 


其 技术 优势 是 可 以 累积 专业 知识 ， 为 问题 的 识别 和 解决 提供 适 
当 的 建议 印 。 典 型 的 案例 推理 包括 案例 分 析 和 表示 、 案 例 匹 配 、 
案例 修正 和 案例 更 新 四 个 部 分 ， 其 过 程 一 般 为 通过 新 间 题 和 历 
史 案 例 的 相似 度 评估 检索 最 佳 案例 ， 修 正 后 作为 新 问题 的 解决 
方案 ， 如 图 2 所 示 中 。 


案例 表示 


图 2 案例 推理 算法 流程 
假设 案例 库 中 的 案例 由 图 3 所 示 四 部 分 组 成 。 


ID | 特征 参数 向 量 X | 解决 方案 /| 效用 值 E 


图 3 案例 的 存储 结构 
其 中 , ID 为 案例 在 案例 库 中 的 存储 标号 ; 解决 方案 和 效用 
值 EE 通常 根据 应 用 需求 来 设 定 ; 特征 参数 用 向 量 卫 表示， 案例 
的 特征 向 量具 体 表 示 如 式 〈1) 所 示 ， 
X, = (CC 所 2 2 )， 大 三 由 2 (]) 
其 中 : D 为 案例 的 特征 总 数 ; L 为 案例 库 中 案例 个 数 。 利 


通常 , 启发 函数 只 作用 于 动作 策略 , 其 最 大 特点 是 函数 值 Hs,a) 
不 断 地 进行 在 线 更 新 ， 以 此 来 突出 表现 优秀 的 动作 。 传 统 启发 
函数 豆 (% ,9) 的 更 新 式 如 下 [02， 


maxQ(s,,a)—Q(s,a)+0 a=x"(s,) 


H(s,,a)= 他 
愉 他 a 


(5) 


其 中 : 
动作 。 
1.4 改进 启发 式 Q 学 习 
1.4.1 指导 函数 设计 

为 了 进一步 加 快 Q 学 习 的 收敛 速率 ,减少 对 不 必要 动作 的 
探索 , 在 动作 策略 中 引入 一 种 基于 信息 强度 的 指导 函数 G(s,a)， 
其 设计 结合 了 Q 函数 和 H 函数 ， 利 用 信息 强度 对 动作 的 重要 
性 进行 评估 5， 在 启发 式 函 数 的 基础 上 对 动作 的 选择 进行 进 
步 的 指导 ， 定 义 式 如 下 所 示 ， 

max(Q(s,,a) + H(s,4a) -(Q(s,,0) + H(s,,a)) 


0 是 一 个 较 小 正 实数 ，x”(s,) 是 启发 函数 鼠 建 议 的 最 佳 


p(s,,a,) 
+U 一 一 
Dpls,a) 
0 其 他 
p(s,,9) 为 状态 5, 下 动作 a 的 信息 强度 ; x”(s,) 是 信息 强 


Sea) 反映 当前 动作 的 重要 性 
p(s,a,) 映 且 RE . 


G(s,,a) = 


0 = 和 (9) (6) 


其 中 : 


度 函数 建议 的 最 佳 动作 ; 5 


U 表示 信息 强度 对 动作 策略 影响 度量 。 
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信息 强度 p(s,,a) 的 更 新 式 如 式 〈7) 所 示 。 


; 
p(s,,a)= ee 07) 

1 其 他 

mu 是 状态 5, 下 之 前 记录 的 最 大 奖赏 值 。 
信息 强度 p(s,,Q) 的 更 新 是 由 ms 和 大 的 大 小 决定 的 ， 当 
1 > ms 时， 表示 当前 选择 的 动作 比 之 前 记录 的 最 佳 动作 更 优 ， 
因此 要 对 该 状态 下 所 有 动作 的 信息 强度 按 式 (7) 进行 更 新 ， 否 
则 无 需 更 新 。 以 上 信息 强度 的 更 新 规则 表明 ， 在 保留 之 前 信息 
强度 的 同时 ， 根 据 ms 和 的 大 小 更 新 的 信息 强度 可 以 体现 出 


其 中 : 


TT 


T 


各 动作 的 优 劣 性 。 
1.4.2 动作 选择 策略 
Q 学 习 算 法 的 动作 策略 选择 时 ， 通 常 要 考虑 权衡 搜索 和 利 


用 。 若 侧重 搜索 ， 会 增加 找到 最 优 解 的 概率 ， 但 算法 的 收敛 速 
度 会 较 慢 ， 关 侧 重 利用 ， 会 加 快 算法 的 收 化 ， 但 容易 陷入 局 部 
常用 的 是 动作 选择 策略 是 2 ee wa Boltzmann 机 
制 。 本 文 在 Boltzmann 机 制 中 引入 启发 函数 和 指导 函数 ， 提 出 
种 改进 的 动作 策略 ， ri (8) 所 示 。 


[Q(s, ,a )+H(s, ,a )+G(s, ,a )]/T 
AX(s) = arg max 


pp [Qs sa ) +H (sa )+G(s,,a N/T (8) 


其 中 : 7>0 为 温度 参数 。7 较 大 时 所 有 动作 都 能 被 等 概率 地 选 
取 ; 随 着 7 的 减少 , 将 以 最 大 概率 选取 Q 值 与 理 值 之 和 最 大 的 
动作 。 
1.5 改进 启发 式 Q 学 习 算 法 的 收敛 性 分 析 
本 节 证 明 上 述 改 进 启发 式 Q 学 习 算 法 的 收敛 性 。 
证 明 假设 在 状态 s， 其 记录 的 最 优 动作 为 a, ,在 学 习 过 
程 中 选择 动作 4, 获得 了 更 大 的 奖赏 值 , 则 根据 式 (7) 可 得 信息 
强度 p(s ,a)< p(s ,qa,)， 则 


zy) =max max p(s ,a) =a, 
a a 


a) 当 a=a, 时， 根据 式 (5) 启发 函数 和 式 (6) 指导 函数 
的 更 新 规则 可 得 ， 


H(s',a,)=maxmaxQ(s',a)-Q(s',4)+7 (9) 


G(s',a,)= max(Q(s',a) + H(s',a)) 到 


10 
OCs) RU i I 
b) 当 a=a 时 ,其 中 4 为 包含 4 但 不 包含 4a, 在 内 的 动作 ， 
H(s',a)=0 (11) 
G(s',a')=0 (12) 


利 


] 式 (9) (10) 可 得 ， 


bm 
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Q(s,a)+H(s,a)+G(s,a,) 
= Q(s',a,) +H(s,a)+ max(Q(s',a)+H(s,a)) 


一 Ss,a,)j+H(s ,a,)]+ p(s 0) 1 
[Q(s',a,)+ H(s',a) 0 a (13) 
= max max sa)j+H(s',a a 中] 
a 9 (人 ) 人 J > Spl(s',a) ,a ) 


p(s, a,) 


Dp(s,a) 
利用 式 (11) (12) 可 得 ， 


其 中 U 


>0， H(s',a)>0 


Q(s,a)+H(s,a )+G(s,a)=Q(s,a) (14) 
比较 式 (13) (14) 可 得 
Q(s,w)+H(s ,a)+G(s,a,) 
>Q(s,a )+H(s,a')+G(s',a’) 


e[oty sai +H (sa)+G(s, ai N/T 


和 ra (人 人 
因 为 人 [Cls + ee)+G(5 ,0 MT 等 价 于 
k 


max[Q(s,4)+ 及 (5,4)+G(s,64 有 1 则 由 式 (8) (15) 可 知 , 在 


利用 阶段 


7(s)=& 


由 上 述 证 明 可 知 ， 该 算法 的 动作 策 


上 略 收敛 于 信息 强度 大 的 


策略 ， 且 通过 不 断 学 习 更 新 ， 必 将 收敛 于 最 优 策略 。 信 息 强 度 
的 更 新 ， 可 以 指导 Agent 选取 更 优秀 的 动作 ， 减 少 不 必 要 的 探 


索 ， 从 而 进行 更 有 效 的 学 习 


2 ” 认 知 无 线 电 资源 分 配 算法 


2.1 系统 模型 

本 文 将 案例 推理 和 改进 启发 式 Q 学 习 算法 用 于 集中 式 认 知 
无 线 电网 络 的 信道 和 功率 分 配 问题 。 其 中 ， 集 中 式 网 络 结构 如 
图 4 所 示 。 假 设 网 络 中 存在 M 个 主 用 户 (PU)，K 个 认 知 用 户 
(SU)， 以 及 NN 个 可 用 于 主 用 户 和 认 知 用 户 的 信道 。 主 用 户 以 
概率 4 在 其 信道 上 传输 信息 ， 各 信道 只 能 由 一 个 主 用 户 或 认 知 
用 户 占用 。 各 认 知 用 户 能 准确 感知 主 用 户 的 通信 ， 并 反馈 给 中 
心 基 站 。 


习 4 集中 式 网 络 拓扑 结构 
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录用 定稿 
2.2 ”状态 -动作 空间 和 奖赏 函数 的 设计 

本 文 将 中 心 基站 被 视 为 学 习 Agent， 定 义 状态 % = cr ， 
ie{1,2,.…K} ，cr 是 认 知 用 户 的 编号 。 通 过 一 次 次 远 代 对 状态 


的 遍历 ，Agent 可 以 为 每 个 认 知 用 
步 优 化 。 
动作 的 设置 考虑 信道 


a; =[channel, power] ， 


户 分 配 信道 和 功率 ， 并 且 逐 


和 功率 的 联合 分 配 ， 即 
N} 为 可 选 信道 
已 } 为 可 选 传输 功率 ， 互 < 已 <…< 到 ，z 为 功 


channel e {1,2,..., 
power e{P,P,..., 
率 的 总 类 数 。 
本 文 算法 的 目标 是 用 户 能 成 功 通信 ， 
能 最 大 化 ， 因 此 奖赏 函数 定义 如 


且 系 统 能 量 效率 尽 可 


-5 闫 生 冲 突 
Wilog,( + SINR) 下 党 
忆 


其 中 : 矿 为 信道 带宽 ; SINR 为 t 时 刻 状 态 ,对 应 认 知 用 户 cz 的 
其 计算 式 如 下 : 


vt 
ll 


1 十 


言 干 品 比 ， 


h, (Op 
m+ 2 gOPF + eve ho, (Ops, 


SINK, = C12 


其 中 : m 为 高 斯 白 噪声 功率 ; Pu 为 认 知 用 户 ci 选择 的 功率 ; 
Pf" 为 主 用 户 上 的 发 射 功率 ; hh;(0) 为 认 知 用 户 or 在 信道 c 上 
通信 时 的 信道 增益 ; 8.(0 为 主 用 户 在 信道 c 上 通信 时 的 信道 
增益 。 
2.3 ”案例 特征 、 效 用 值 和 更 新 方法 的 设计 

本 文 按照 图 3 所 示 的 格式 存储 案例 ， 选 取信 道 
84 作为 特征 参数 ; 存储 的 决策 方案 为 进行 改进 学 习 后 的 最 终 Q 
值 表 ; 本 文 算 法 追求 的 目标 是 认 知 系统 能 量 效率 最 大 化 , 因此 ， 
案例 效用 值 设 定 为 各 案例 达到 稳 态 时 的 能 量 效率 值 。 案 例 的 
更 新 根据 效用 值 进行 ， 当 新 案例 学 习 得 到 解决 方案 后 ， 与 案例 
库 中 效用 值 最 小 的 案例 进行 比较 ， 若 新 案例 的 效用 值 小 于 最 小 
效用 值 , 则 不 更 新 案例 库 ; 若 新 案例 的 效用 值 大 于 最 小 效用 
则 完成 案例 更 新 ， 即 用 新 案例 蔡 代 最 小 效用 值 对 应 的 案例 存储 
到 案例 库 中 。 
2.4 算法 步骤 

综 上 ， 基 于 案例 推理 和 改进 启发 式 Q 学 习 的 集中 式 认 知 
无 线 电 网 络 资源 分 配 算法 (也 记 为 CBR-IHAQL) 具体 流程 如 
下 : 


a) 给 定 w、0、 


Se 


增益 及 和 


he 


目 ， 


7 、U、 石 以 及 和 迭代 次 数 ， 随 机 初始 化 
增益 , 分 别 进行 改进 启发 式 Q 学 习 , 然后 作为 历史 案 
例 按 格 式 存储 到 案例 库 中 ， 


20 组 信道 


ChinaXiv 合 作 
并 


a 发 式 Q 学 习 的 资 作 期 于 ， 


b) 针对 当前 问题 ， 根 据 式 (2) 和 (3) 得 到 匹配 案例 ， 提 
取 其 Q 值 并 归 一 化 处 理 ， 作 为 后 续 学 习 的 初始 Q 值 ; 

c) 给 定 5, 初始 化 G(s,a) 后 0， p(s,4) 全 0，, ra 车 0 ,Hls， 
a) 为 (0，1) 间 的 随机 数 ， 随 机 选择 初始 状态 so ; 

d) 基于 当前 状态 %，, 根据 式 (8) 选择 相应 的 动作 
由 式 〈16) 得 到 奖赏 值 志和 下 一 状态 5 ; 

e) 根据 式 (4) 更 新 Q 值 ; 


执行 ， 


f) 判断 若 > ms ， 则 根据 式 (5) (7) 更 新 各 动作 的 启 
发 函数 值 、 指 导 函 数值 和 信息 强度 值 ，Aus 所 ,否则 不 进行 更 
新 ; 

g) 参数 更 新 ;温度 参数 了 根据 下 式 进 行 更 新 ; 

TO 

h) % < sw ， 若 达到 迁 代 次 数 机, 则 转 步 又 (9); 否则 ， 返 
可 步骤 d); 

i) 完成 学 习 后 当前 问题 得 到 解决 ， 根 据 2.3 节 中 设计 的 更 
新 方法 完成 案例 库 的 更 新 ; 


j) 当 有 新 问题 到 达 时 ， 转 步骤 b); 否则 ， 结 束 学 习 。 
当 不 考虑 案例 更 新 时 ， 算 法 简 记 为 CBR-IHAQLu。 


3 ”算法 仿真 与 性 能 分 析 


实验 1 改进 启发 式 Q 学 习 算法 的 性 能 

仿真 中 设 定 主 用 户 数 M 为 3， 其 传输 功率 为 200 mW; 认 
知 用 户 数 K 为 6， 可 选 的 传输 功率 集 P={100,125,150,175,200} 
mW; 信道 数 N 为 12， 其 带宽 W 均 为 1 MHz， 且 各 信道 
服从 均值 为 1 的 瑞 利 分 布 ,并 在 学 习 期 间 内 保持 不 变 ; m =10” 
mW, 7o=0.6，0 =0.3, U=1，Q =0.12，y =0.9。 本 实验 对 IHAQL 
算法 、VLRQL 算法 "文献 [13] 的 PSG-HAQL 算法 以 及 QL 算 
法 "的 性 能 进行 对 比 ， 总 迭代 次 数 工 为 20000 次 ,为 了 结果 能 
更 直观 明了 , 均 分 为 20 个 学 习 阶 段 进行 统计 ,仿真 结果 取 10 
个 新 案例 实验 的 平均 值 。 

1) 算法 性 能 对 比 
图 5 和 6 分别 给 出 了 主 用 户 以 概率 4=0.8 占用 信道 时 ， 四 
种 Q 学 习 算法 的 认 知 系统 能 量 效率 和 认 知 用 户 成 功 传输 概率 
线 。 由 图 可 见 ， 随 着 学 习 时 间 的 推移 ， 四 种 Q 学 习 算 法 的 系统 
能 量 效率 和 认 知 用 户 成 功 传输 概率 都 逐渐 增加 。 且 变化 趋势 一 
致 。 由 于 可 用 信道 数 大 于 用 户 数 ， 四 种 算法 趋 于 收敛 时 ， 所 有 
认 知 用 户 都 能 以 概率 1 实现 成 功 传输 ， 从 而 保证 各 用 户 都 能 正 
本 文 IHAQL 算法 较 VLRQL 算法 、PSG-HAQL 算法 
和 QL 算法 能 够 更 快 地 达到 收敛 状态 ， 且 系统 能 量 效率 高 。 综 
上 可 见 ， 本 文 算法 可 以 快速 选择 最 佳 信道 和 功率 ， 使 认 知 用 户 
得 到 更 好 的 QoS 保证 。 


增益 


常 通信 。 
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录用 定稿 
图 5 认 知 系统 能 量 效率 

图 6 成 功 传输 率 

2) 主 用 户 数 变 化 对 系统 性 能 的 影响 
图 7、8 分 别 给 出 了 主 用 户 数 量变 化 且 以 概率 1 占用 信道 
时 ,四 种 Q 学 习 算 法 的 认 知 系统 能 量 效 率 和 系统 容量 变化 曲线 。 
图 可 见 ， 四 种 Q 学 习 算法 的 系统 容量 相差 不 大 ， 且 认 知 系统 
能 量 效率 和 系统 容量 都 随 主 用 户 数 的 增加 而 下 降 ， 由 于 主 用 户 
数 越 大 ， 认 知 用 户 可 选择 的 信道 越 少 ， 即 受到 的 干扰 越 大 ， 所 
以 认 知 系统 能 量 效 率 下 降 的 速率 越 快 ， 本 文 IHAQL 算法 的 能 


能 量 效率 Mbps/mW 
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图 7 认 知 系统 能 效 随 主 
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日 
主 用 户 数 


户 数 变化 


一 e 一 IHAQLS 法 
一 x 一 aqL 法 
一 一 


PSG-HAQL 算 法 
一 一 WLRQL 算 法 


2 4 


图 8 认 知 系统 容量 随 主 


6 
主 用 户 数 


量 效率 较 VLRQL 算法 、PSG-HAQL 算法 和 QL 算法 的 都 高 。 


徐 琳 ， 等 : 基于 案例 推理 和 有 


实验 2 ”基于 案例 推 


IHAQL) 性 能 


里 与 改进 启发 式 Q 学 习 算 法 (CBR- 


仿真 参数 同 实 验 1。 案 例 库 中 存储 20 个 案例 ;给 定 =0.8 ， 


9, =0.2， 分 别 对 应 信道 增益 及 和 8x 。 


总 迭代 次 数 工 为 8000， 


均 分 为 20 个 学 习 阶 段 进行 统计 。 


1) 相似 值 1 对 系统 容量 世 


当前 问题 与 案例 库 中 案例 的 匹配 相似 值 了 分 别 为 0.1506、 


0.3009 和 0.5771 时 ， 系 统 能 量 效率 的 变化 曲线 如 图 9 所 示 。 
可 见 , f 越 大 ， 当 前 问题 与 存储 案例 的 相似 度 越 小 ， 系 统 能 


pa 


中 


效率 的 初始 值 越 小 ， 收 敛 速度 越 慢 ， 其 到 达 稳 态 后 的 系统 能 效 


Ke 


值 也 越 小 。 因 此 ， 案 例 检索 时 应 该 选取 了 值 最 小 的 案例 作为 匹 
配 案例 。 
"| se ee ee ee es en 
和 
旭 9 相似 值 /对 系统 容量 的 影响 
2) 算法 性 能 比较 


由 图 


法 比 CBR-IHAQLu 算法 能 


增加 。 但 是 当 存 储 的 案例 过 多 


以 有 效 弥 补 案例 不 足 的 缺点 。 


图 10 给 出 了 Case 分 别 为 20 和 40 时 ,CBR-IHAQL 算法 、 
CBR-IHAQLu 算法 和 IHAQL 算法 的 认 知 系统 能 量 效率 


因此 存储 的 案例 数 通 常 不 会 取 太 大， 日 


线 ， 


可 见 ，CBR-IHAQL 算法 和 CBR-IHAQLu 算法 在 学 习 初 始 
的 系统 能 量 效率 值 就 接近 最 高 值 ， 较 IHAQL 算法 的 收敛 速度 
明显 提高 ,， 且 能 达到 更 高 的 系统 能 效 值 。 同时 , CBR-IHAQL 算 


快 收敛 到 更 高 的 系统 能 效 值 。 当 存 


浇 的 案例 增加 时 ， 认 知 系统 的 能 量 效率 增加 ， 收 敛 速度 也 略 有 


时 ,案例 匹配 的 搜索 时 间 会 增加 ， 
图 可 知 ， 案 例 更 新 可 


能 量 效率 Mbps/mW 


告 - 寺 - 才 - 才 - 才 直 才 和 二 - 才 -二 


一 一 cCBR-IHAQLu 算 法 (Case=40) 

一 4 一 CBR-IHAQL 算 法 (Case=40) 

一 一 CBR-IHAQLu 算 法 (Case=20) 

一 < 一 CBR-IHAQL 算 法 (Case=20) 
QL 算法 
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综 上 可 见 ， 本 文 提出 的 基于 案例 


认 知 系统 能 量 效率 
# 理 与 改进 启发 式 Q 学 习 


算 


法 可 以 快速 选择 最 佳 信道 和 功率 ， 使 认 知 用 户 得 到 更 好 的 


QoS 保证 。 
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结束 语 


本 文 主要 研究 了 集中 式 认 知 无 线 电 网 络 结构 中 采用 案例 推 


理 


与 改进 启发 式 Q 学 习 的 各 认 知 用 户 的 信道 和 功率 分 配 算法 。 


通 


重 过 匹配 当前 问 


题 与 案例 库 中 的 案例 , 使 Q 学 习 算法 在 迭代 初 


就 
式 
动 


接近 最 优 解 的 Q 初 值 ， 大 大 提高 了 学 习 效率 。 并 在 启发 
Q 学 习 的 动作 策略 上 引入 基于 信息 强度 的 指导 函数 , 评估 各 
作 的 重要 性 以 指导 动作 的 选取 。 仿 真 结果 表明 ， 该 算法 保证 


功 


认 知 用 户 信道 和 发 射 功率 分 配 时 的 系统 容量 和 认 知 用 户 的 成 
传输 概率 ， 显 著 提 高 了 收敛 速度 。 
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